离线语音从场景到设备再到芯片,听 5 位行业大佬解读端上 AI 的共性和趋势 | 特稿
湾里对话:Sonos、云知声、Rokid、思必驰、全志科技
- shenzhenware -
本文为深圳湾的一期特别策划,来自 Sonos、思必驰、云知声、Rokid、全志科技、Arm 中国的 5 位专家,将为我们解读关于离线语音助理的热点话题。同时,他们的观点和洞见,也让我们看到了从设备端到芯片再到 IP 内核,下一代语音 AI 平台和技术的发展趋势。
苹果近日宣布收购了爱尔兰的语音 AI 初创公司 Voysis。Voysis 成立于 2012 年,曾面向零售商推出了一个独立的语音平台,通过对用户数据库中产品、服务和词汇的深度学习,实现在较小的内存里实现 AI 的自然语言对话。
苹果公司可能会利用 Voysis 的技术来提高 Siri 对自然语言的理解能力,或者将 Voysis 平台提供给开发者,以改善 Siri 与应用的协作方式。
而就在今年 1 月,苹果以约 2 亿美元的价格收购了另一家 AI 初创公司 Xnor。Xnor 面向智能设备,推出了低功耗机器学习技术,可以在离线的情况下运行。
Xnor 和 Voysis 有相似之处,可以在很低的功耗或很小的内存下帮助智能设备实现离线语音。而离线是苹果公司感兴趣的,离线可以帮助设备更好的实现隐私。
苹果的两起收购案,无疑为我们带来了信号,是时候要帮助 Siri 成长了。
无独有偶,去年 11 月,音响界的苹果 Sonos 公司宣布以 3750 万美元的价格,完成了对语音助手初创公司 Snips 的收购。
Snips 是一个来自法国巴黎的语音助手初创公司,成立于 2013 年。通过 Snips 的离线语音平台,打造可以直接在设备端运行、无需将信息传输到云端的语音助手。这一主打离线操作语音平台也正是 Sonos 收购 Snips 的最重要原因。
△ Snips 语音平台
去年深圳湾曾经与 Sonos 大中华区战略合作副总裁张维明有过一次对话,谈及 Sonos 收购 Snips 背后的思考。
一方面,随着家庭里的智能设备数量越来越多,设备需要稳定和高效的响应速度,用户也需要更好的隐私保护,而离线语音便是保障这两点的解决方案,离线语音是大势所趋。
另一方面,Sonos 也不需要一个全能型的 AI 助手,Sonos 所打造的智能音箱与 Echo 等智能音箱有着本质的区别,后者带有明显的「入口化」和「多媒体化」特点,而 Sonos 更关注的是音乐体验本身,而语音助手更像是一个个面向垂直场景的离线语音控制指令集。
△ Sonos Beam,支持 Alexa、Google Assistant、Siri 和 Rokid 等多个语音助手
就拿语音点播这一个场景举例,Sonos 希望能把体验做到深处,或许打造更多适合垂直使用场景的音乐技能,甚至也有可能把语音指令做到类似 Spotify 这样的内容里面,实现体验入微的内容点播,这正是 Sonos 希望能带给大家的极致音乐体验的一个例子。
思必驰创始人、首席科学家俞凯则认为,近期有关边缘计算的收购案很多,实际上是端上 AI。端上 AI 和边缘计算是两个概念,虽然都不需要经过云端,但边缘计算是在局域网和类局域网的边缘终端上进行的,而苹果和 Sonos 这些消费电子厂商在做的是端上 AI。
各家企业提出的「云+端」是普适的发展线路,云端比较集中,端上比较分散,无论是设备、技术、还是所提供的服务种类。针对端上的普适性语音助手的技术目前还不明确,大公司从布局的角度上,会选择收购小公司,来尽可能覆盖不同的设备场景。
对于苹果公司来讲,最典型的场景就是本地助理。早在 2011 年 Siri 面世,语音助理的概念被拓展的很宽泛,而如今则面临一个助理分散化的趋势。苹果的几宗收购案的共性是,聚焦在生活类场景,与实际的业务逻辑结合在一起。
这里还看到一个趋势——数字助理的行业化,是自然而然发生的。就像人类的社会分工,随着物质文明的进步,有专门的人钻研专门的知识。而随着数字助理的发展,也会有针对不同行业和领域的专门分工,有的公司做通用的数字助理,有的则选择垂直领域深钻。
对于端上 AI 交互的发展趋势,思必驰俞凯也为我们做了总结。他认为,端上语音助理的小型化是现在的趋势。一方面,技术层面上,识别、合成、理解的模型都要做到足够小,另一方面,结合业务逻辑,小场景,理解能力更强。
端上 AI 并不是简单在将云端的技术拿来在端上跑,虽然技术种类并没有区别,但难度更大,比如,端上可以识别语音的范围和种类受限。其次,端上语音 AI 的更新和定制,是要难于云端的,端上的深度学习更难。
谈及趋势,云知声董事长、CTO 梁家恩认为,语音交互和硬件深度融合,结合低功耗边缘计算加速能力,是大势所趋,这是也是云知声做 AI 芯片的逻辑依据。
各家 AIoT 平台必然是「云+芯」结合的形态出现,感知和生成层面工作,基本上会在本地完成,云端解决协同和在线服务的问题。大公司基本上会围绕自己业务构建 AI 体系,独立第三方平台主要是面向中小企业和垂直化寻求发展。
梁家恩还指出,当前,离线挑战在于低资源、低功耗情况下保持高性能、低成本,减少环境复杂和模型压缩带来的精度损失。语音成为 IoT 设备的交互标配是大势所趋,边缘计算能力也成为必要条件。
Rokid 副总裁周军认为,随着模型小型化技术的进展,端侧可以用非常小的运算资源运行非常优秀的推理模型。比如在一个 DSP 上跑语音信号处理与多达 50 个离线命令词,噪声下可以达到 90% 以上识别率。
目前,端侧的语音识别(ASR)、语音合成(TTS)、甚至自然语言理解(NLP)占用的内存和运算资源还比较高,这也是创业公司的机会,通过创新的算法、模型设计以及新的芯片架构来解决。
端侧的 AI 训练也将是一个趋势,通过自学习进一步提高智能。此外,除了离线语音,未来也会与离线视觉/图像/环境理解结合,创造出更有意思的产品。
当然端侧还是需要与云端配合,实现多用户协作,比如可以针对行业用户,定制智能 SaaS 服务。
离线语音在很多场景会成为一个标配,不仅是智能音箱,AR 眼镜也将是刚需。Rokid Glass 可以在恶劣的工业环境下,无联网下全语音操作。
近日,全志科技联合 Arm 中国推出了采用 AI 专核(周易 AIPU)跑智能语音的芯片 R329,它集成了 AIPU、DSP、CPU、双核 HIFI4 共 5 颗计算核,其最大的优势是在精度和算法移植的速度上的优化上,以及在设备端体现出来的低功耗、长续航、小型化、可扩展性等特点。
全志科技副总裁陈风则认为,语音识别(ASR)技术在大多数家居场景已经达到了实用程度,短期内再有大幅度提升不太现实,而「人工智障」的问题还有很大的改善空间,因此接下来的提升重点在于语义理解(NLP)。
NLP 的提升需要更高的深度学习算力,这就需要更强算力、更高能耗比的芯片支持。这意味着客户对芯片的深度学习算力、以及能耗比要求,都有了指数级的提升。对于芯片而言,集成音频 DSP 和音频 NPU 的需求已经出现,发展趋势非常明确。
本地 NLP 需要本地 ASR、本地 TTS 以及传统信号处理的配合,才能实现一个完整的端侧语音识别功能,对应芯片的需求就是需要音频 DSP 和音频 NPU 的标配支持。
有很多人会关心,除了语音,离线 AI 是否还有更大的拓展空间?陈风认为,现有通用 AP 用于离线 AI,还有一些地方不尽如人意,目前市场上谁先推出集成了音频 NPU 的芯片,将更有可能在这个需求明确的市场上建立领导地位。
现在 NPU 市场百花齐放,导致算法公司和客户存在大量的适配和优化工作,NPU 市场现阶段呈现碎片化状态形式。
未来,离线 AI 芯片架构的设计将具备以下几个特征:
1、支持多重异构:音频 DSP、音频 NPU 不可或缺,本地 ASR、NLP、TTS 均是基于深度学习的算法,降噪、回声消除等前端音频信号处理也在快速往深度学习算力上转移。
2、高质量的周边 IP 配套,如高精度多路 ADC、DAC 配套,多路 I2C/TDM、DMIC、SPDIF、UART 支持等。
3、兼具大算力和低功耗两大特性,以实现带电池设备的待机可唤醒,需要至少配备不小于 2MB 容量的 SRAM,低功耗状态下的内存带宽需要至少大于 600MB/S。
毋庸置疑,离线语音将成为 IoT 设备的标配,逐渐在市场普及。
但离线语音的落地是有层次的。思必驰俞凯认为,首先是完成基本的命令控制、设备交互;之后,基于对设备隐私的保护,大词汇的语音合成、理解、识别将逐步在设备端实现。
需要强调的是,离线语音是不好作为独立的产品形态存在的,需要与云端能力结合,需要有一定的离在线结合能力,否则,语音助理是无法进化的。而未来语音助理的自学习、自进化能力是非常重要的。
在俞凯看来,下一代语音 AI 技术的发展,有两个趋势:1、场景化,未来会有越来越多的应用型公司;2、全链路、软硬结合、高度可定制、「云+芯」等综合技术的整合。
而随着 AI 产业的分化会越来越专业化,思必驰将会进一步夯实全链路的技术平台,将场景级的赋能做到极致。
Sonos 不需要一个全能型的 AI 助手,而更关注的是音乐体验本身。在类似语音点播这个具体场景,把体验做到深处。
Siri 把语音助理的概念拓展的很宽泛,而如今则面临一个助理分散化的趋势。苹果从布局的角度上,通过收购语音初创公司,来尽可能覆盖不同的设备场景。
端上语音助理的小型化是现在的趋势。一方面,技术层面上,识别、合成、理解的模型都要做到足够小,另一方面,结合业务逻辑,小场景,理解能力更强。
离线挑战在于低资源、低功耗情况下保持高性能、低成本,减少环境复杂和模型压缩带来的精度损失。
端侧的 AI 训练也将是一个趋势,通过自学习进一步提高智能。此外,除了离线语音,未来也会与离线视觉/图像/环境理解结合,创造出更有意思的产品。
对于芯片而言,集成音频 DSP 和音频 NPU 的需求已经出现,发展趋势非常明确。
未来,离线 AI 芯片架构的设计将具备以下几个特征:支持多重异构、高质量的周边 IP 配套、兼具大算力和低功耗两大特性。
离线语音的落地是有层次的。首先是完成基本的命令控制、设备交互;之后,基于对设备隐私的保护,大词汇的语音合成、理解、识别将逐步在设备端实现。未来语音助理的自学习、自进化能力是非常重要的。
离线语音将成为 IoT 设备的标配。■
智能音箱 & 语音智能
2019 全球智能音箱出货量近 1.5 亿台,两份报告,一份解读 2019 Q3 智能音箱全球出货量 2860 万,这个市场还令人兴奋吗? 智能音箱已进入 3500 万中国家庭,谁的品牌认知度最高? 2019 Q2 全球出货量达 2610 万台,百度成全球第二大智能音箱厂商 2019 Q2 全球智能音箱出货量 3030 万,全年出货量有望达 1.5 亿 2019 Q1 全球智能音箱出货量 2070 万,2019 语音市场大不相同 2018 全球智能音箱出货量 8620 万,2019 市场主要增长点是带屏音箱 2023 年中国智能助手设备保有量将达到 58 亿台,大家电、智能手机是重点
实测小度语音定制后,对语音助手从工具向人格化方向进化的思考 文字转语音功能上线,用 Google Assistant 朗读网页内容是怎样的体验 从个人助理到生产力助理,微软 Cortana 回归办公场景的下一步 近 1.3 亿美国人使用车载语音助手,活跃度远高于智能音箱 语音助手三年变化,在全球化市场中探索新机会 Google Assistant 全体验:强化隐私、离线语音等多个跨场景功能
快到「湾」里来
深圳湾正在招聘:
真知灼见的科技记者
四通八达的运营编辑
才华横溢的市场策划
技能爆表的活动运营
热情四射的社区达人
简历传送门:
shining@shenzhenware.com
● ● ●
深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)。